Bin, Bin, Bin!Map, Map, Map Now!(一)
在很久以前,自从小明遭遇了GWAS情劫后,就不断有粉丝慕名而来,在后台问我:“先生可曾为 bin map 遗传定位推送过文章没有?”我说“没有”。 他们就正告我:“先生还是写一点吧,很多被遗传定位所困的莘莘学子还是很爱看先生的文章。”
什么是Binmap
基因组时代,BSA,Binmap,GWAS是遗传学的三大宝刀。
BSA最省时、省力、省钱,但是需要你有好的材料,进行合理实验设计。很多同学都被测序公司骗,以为什么都能BSA,甚至自己都不清楚自己的群体分离比究竟咋回事,就混池测序,只会越混越乱。
Binmap是最中规中矩的实验设计,需要你构建群体,对群体中每个单株进行测序和考察表型,这有点小烦人。但是随着测序成本的降低,相对于BSA也多花不了几个钱,个人还是非常推崇这种稳扎稳打,步步为营的遗传学方法。
GWAS其实是最懒的实验设计(我指的是对某些异想天开的实验室)。为什么说他懒,因为很多人都是从别人那里拿来种质资源,考察表型,然后交给公司测序,拿来SNP数据,甚至后续分析都是公司搞定。很多都是发文章一锤子买卖,很难有下文,图的就是短平快。非常符合当下对SCI,IF充满着饥渴的科研环境。很多需要对材料群体结构进行精细考量,对关注的表型进行系统设计的环节被完全省略,完全变成了#比钱多,比材料多的比大小游戏。
小结: 相对简单粗暴的GWAS而言,BSA和Binmap都更需要关注一些的生物学问题,脑袋非常清楚的去发现,甚至创造材料,进行实验设计。要不很难有好的实验结果。当然我们也需要在群体水平和应用方向上挖掘信息,提高我们研究的意义和质量。
基本概念
前段时间介绍过BSA定位过基因,今天就来讲Binmap。前部分是基本概念介绍,后面是代码实现。老少皆宜,适合睡前十分钟看完,然后动动手指头转发、点赞、打赏、拍砖等一系列睡前非理智行为。留在白天,在R中复制粘贴代码,十分钟之后,困扰你几年已久的binmap构建完成,几秒之后QTL扫描完成。
bin在基因组学上其实有两个概念,一个等同于大家熟悉的window(plink的官方文档有涉及,不知所云代表你不需要知道);另外一个侧重于遗传学,它是指在一个分离群体中,没有发生重组的染色体区块。后面一个概念有点绕。什么意思?
我们都知道一个个体要去生孩子,就要先发生减数分裂产生配子,减数分裂过程染色体会随机重组,发生交换,这个交换位点在染色体上是“随机的”。一个F1自交产生了200个小娃娃,这200个小娃娃的400条染色体就会发生很多次交换,但是注意这些交换位点是随机,那么就会有些区段,一次交换也没有,一次交换也没有,一次交换也没有。一次交换也没有怎么办?那就不换呗。不换怎么办?那这段就是一个bin呗。
沃特,还不明白?或者你本来明白,被绕的晕乎乎的。这个时候你室友叫你来斗地主,正和你意!第一盘,你上来就是双王,王炸下去,赢了一盘。然后第二盘,你叫了地主,翻起底盘,亮瞎了你的“人”眼,底盘留着双王。你室友肯定大叫,“这怎么洗的牌!牌没洗净,重来!” “啥,牌没洗净?!” 对,就是没洗净,上次连着,洗牌后,还连着,中间一点没交换交换。对!这就是bin啊,中间没交换。你恍然大迷瞪。哦,bin就是基因组上这一块,洗牌时候,没交换,没洗净,以至于出现在下一代时候,还连在一块没打断啊!
这个时候,你可能理解了概念,那咱就来一个专业点的小故事再来两个疗程,巩固巩固,看下图。
图1:一个简单的F2群体信息
如图1“小”的单倍体小物种,染色体非常小,whole genome只有10个碱基。小爹,小妈的10个碱基都有差异。小爹小妈有一个孩子,这个孩子长大后,自交生下了3个孩子。这三个孩子就是一个小小的F2群体。三个孩子的染色体各发生一次交换,小1断点发生在第6、7个碱基之间,小2断点发生在第5、6个碱基之间,小3断点发生在第2、3碱基之间。通过比对之后,发现三个个体组成的群体中第1、2碱基之间没有发生交换,于是这两个碱基就是一个bin,第3-5个碱基也是一个bin,第6-7个碱基是一个bin,第8-10个碱基是一个bin。
如果我们把小爹基因型code0,小妈基因型code成1。三个个体基因型整理成如下格式:
表1:“小”物种三个F2个体的binmap
这下你眼熟了吧。好,本节到此结束,大家可以把这篇文章转发到朋友圈了。
明天用一个水稻的实际数据进行Binmap实战,让你的小伙伴也来学点新技能吧。
对了,阅读原文是BSA分析的文章,要不要也在睡前回顾一下呢
还有,如果你对文章有什么不懂,并且留言难以表达的话,我们还准备了微信交流群哦。扫下面微信二维码添加好友,拉你入群,请注明姓名+生信媛+研究方向。备注不全,我们可能就不能通过好友申请了。